Extracting multi-annotated speech data (Extraction de données orales multi-annotées) [in French]
نویسندگان
چکیده
Résumé. Cet article aborde le problème de l’extraction de données orales multi-annotées : nous proposons une solution intermédiaire, entre d’une part les systèmes de requêtages très évolués mais qui nécessitent des données structurées, d’autre part les données (multi-)annotées des utilisateurs qui sont hétérogènes. Notre proposition s’appuie sur 2 fonctions principales : une fonction booléenne pour filtrer sur le contenu, et une fonction de relation qui implémente l’algèbre de Allen. Le principal avantage de cette approche réside dans sa généricité : le fonctionnement sera identique que les annotations proviennent de Praat, Transcriber, Elan ou tout autre logiciel d’annotation. De plus, deux niveaux d’utilisation ont été développés : une interface graphique qui ne nécessite aucune compétence ou connaissance spécifique de la part de l’utilisateur, et un interrogation par scripts en langage Python. L’approche a été implémentée dans le logiciel SPPAS, distribué sous licence GPL.
منابع مشابه
BL-Database: A French audiovisual database for speech driven lip animation systems
The lack of publicly available annotated databases is a major limitation to research advances in speech processing. We describe in this paper an audiovisual speech database which is being made available to the research community. Our database, called BL-database (Blue Lips-database), consists of 238 utterances spoken by 17 speakers. The recordings have been performed during two sessions. The da...
متن کاملLarge-scale acoustic and prosodic investigations of french. (Analyses acoustiques et prosodiques du français à partir de grandes masses de données orales)
ii This thesis was partially financed by RTRA-DIGITEO, Région Île-de-France, under the projet AMADEO (Apprentissage à partir de grandes masses de données orales, 2007-01D), and by the OSEO Quaero program.
متن کاملInférence semi-automatique et interactive de règles sans vérité terrain
Dealing with non annotated documents for the design of a document recognition system is not an easy task. In general, statistical methods cannot learn without an annotated ground truth, unlike syntactical methods. However their ability to deal with non annotated data comes from the fact that the description is manually made by a user. The adaptation to a new kind of document is then tedious as ...
متن کاملAutomatically identifying implicit discourse relations using annotated data and raw corpora (Identification automatique des relations discursives « implicites » à partir de données annotées et de corpus bruts) [in French]
Automatically identifying implicit discourse relations using annotated data and raw corpora This paper presents a system for identifying « implicit » discourse relations (that is, relations that are not marked by a discourse connective). Given the little amount of available annotated data for this task, our system also resorts to additional automatically labeled data wherein unambiguous connect...
متن کاملRecommandation de requêtes dans les bases de données multidimensionnelles annotées
RÉSUMÉ. La problématique traitée dans cet article consiste à personnaliser les systèmes OLAP annotés. Nous proposons de modéliser les données au sein d'une constellation supportant à la fois des annotations et des préférences. Les annotations sont utilisées pour représenter « l’expertise » immatérielle du décideur tandis que les préférences permettent d'individualiser les données durant les man...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2014